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大 语言 模型 时 代 的 语言 学 研究 新 机 遇 
-以 歧义 分 析 为 例 
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摘要 以 GPT 系列 为 代表 的 大 规模 预 训 练 语言 模型 的 快速 发 展 ， 深 刻 改变 了 自然 语言 处 理 领 域 的 科研 与 工程 
范式 ， 对 医疗 、 教 育 、 司 法 、 金 融 等 相关 领域 产生 了 深远 影响 。 同 时 ， 这 也 为 语言 本 身 的 研究 带 来 了 一 些 新 的 
可 能 性 。 本 文 从 歧义 分 析出 发 ， 简 要 评估 GPT4、 百 川 2、ChatGLM3 等 模型 对 以 歧义 为 代表 的 复杂 语言 现象 的 
理解 和 分 析 能 力 。 实 验 结果 表明 ，GPT4 可 以 融合 歧义 消解 和 句法 分 析 等 方法 ， 有 效 感知 和 理解 复杂 的 语言 现 
象 。 对 于 百川 2， 我 们 也 可 以 通过 提示 词 工程 引导 其 对 语言 现象 进行 深入 思考 ， 在 不 进行 参数 优化 的 前 提 下 ， 
提升 其 分 析 能 力 。 此 外 ， 通 过 监测 大 模型 在 处 理 不 同 语言 现象 时 的 内 部 特征 与 神经 元 活动 ， 可 以 直观 展现 语言 
现象 与 大 模型 之 间 的 关系 。 实 验 结果 表明 ， 大 语言 模型 可 以 辅助 人 类 更 好 地 理解 语言 的 本 质 ， 并 揭示 语言 现象 
深层 次 规律 ， 为 语言 学 研究 提供 新 的 思路 。 


Abstract The research and engineering paradigm of natural language processing has been shifted with the rapid 
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development of large languages models represented by the GPT series. It makes a significant impact on the related fields 
such as healthcare, education, justice and finance. At the same time, it also brings new possibilities for linguistics, the 
study of language itself. In this paper, we employ GPT4, Baichuan2 as well as ChatGLM3 and investigate their abilities 
of analyzing complex linguistic phenomena, taking ambiguity as an example. The experimental results show that GPT4 
can effectively perceive and understand complex linguistic phenomena by integrating ambiguity resolution and syntactic 
analysis. For Baichuan2, if it is guided properly via prompt engineering, its analytical ability can be improved without 
parameter optimization. In addition, the relationship between linguistic phenomena and large language models can be 
visually demonstrated by monitoring the internal features and neuron activities of the models when processing 
ambiguous sentences in different context. In general, our experiments indicate that large language models are beneficial 
to better understanding the analyzing complex linguistic phenomena, hence providing new alternatives for linguistic 
research. 

关键 词 。 大 语言 模型 ， 语 言 学 研究 ， 歧 义 

Keywords Large language models, Linguistic study, Ambiguity 


自然 语言 是 人 类 最 重要 的 沟通 工具 之 一 ， 其 中 存在 着 大 量 的 收 义 与 不 确定 性 ， 同 一 个 词 或 者 句子 在 不 


= 


同 语 境 下 有 不 同 


利用 计算 机 技术 有 效 分 析 和 处 理 自然 语言 带 来 了 巨大 挑战 。 H 


的 涵义 。 此 外 ， 自 然 语言 随 着 人 类 社会 发 展 而 不 断 演 化 ， 有 鲜明 的 时 代 和 文化 特征 。 


日 于 


这 给 


自然 语言 的 复杂 性 和 灵活 性 ， 仅 依赖 专家 


知识 构建 的 自然 语言 处 理 系统 往往 无 法 有 效 处 理 现实 中 复杂 的 语言 现象 。 因 此 , 随 着 机 器 学 习 算法 的 发 展 、 


算 力 基 础 设施 的 


进步 以 及 海量 文本 数据 的 积累 ， 基 于 统计 的 机 器 学 习 方法 


计算 语言 学 也 成 为 语言 学 研究 的 重要 方向 。 
近年 来 ， 随 着 以 BERT[1] 和 GPT[2] 为 代表 的 预 训练 技术 的 快速 发 展 ,自然 语言 处 理 和 计算 语言 学 中 的 
机 器 学 习 方 法 逐步 由 依赖 大 量 人 工 标注 数据 的 全 监督 学 习 ， 过 渡 到 依赖 较 少 样本 的 迁移 学 习 ， 再 到 只 


几 个 或 者 不 依赖 


示 词 ， 以 较 低 成 本 解决 各 类 问题 。GPT4[3] 等 业界 领先 的 商用 大 模型 在 多 项 任务 上 展现 出 了 逼近 甚至 


人 类 专家 的 能 


六 


逐步 成 为 自然 语言 处 理 的 


主流 ， 


依赖 


[4]. 
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高 质 


展 高 端 论 坛 》 上 的 同名 报告 内 容 整理 而 成 


王 何 标注 样本 的 少 样本 和 零 样本 学 习 。 基 于 大 语言 模型 ， 我 们 可 以 按照 具体 需求 来 设 定 提 


超越 


本 文 以 自然 语言 中 的 卜 义 分 析 为 例 ， 探 究 大 语言 模型 对 于 自然 语言 本 身 的 复杂 现象 的 分 析 和 理解 能 
包括 探究 大 语言 模型 能 否 感 知 自然 语言 中 的 歧义 现象 ， 并 结合 上 下 文 对 于 收 义 现象 做 出 准确 判别 和 分 析 。 
除 此 之 外 ， 我 们 监测 大 语言 模型 在 处 理 不 同文 本 时 的 神经 元 内 部 活动 ， 尝 试 将 模型 隐 层 特征 与 自然 语言 表 
层 的 歧义 现象 进行 对 照 ， 从 模型 特征 的 角度 为 语言 现象 寻求 解释 。 实 验 结果 表明 ,〈1) 大 语言 模型 对 于 自 
然 语 言 中 的 歧义 有 一 定 的 感知 和 分 析 能 力 。GPT4 等 规模 更 大 、 通 用 能 力 更 强 的 模型 ， 对 于 歧义 的 感知 与 
分 析 能 力 强 于 百川 5] 和 ChatGLM[6] 等 开源 模型 。(2) 通过 对 模型 进行 引导 ， 即 可 在 不 进行 模型 参数 优化 
的 前 提 下 ， 提 升 模型 的 歧义 分 析 能 力 。(3) 大 语言 模型 内 部 的 神经 元 活动 与 自然 语言 现象 有 一 定 的 对 应 关 
系 。 对 齐 大 模型 内 部 特征 与 语言 学 现象 和 相关 理论 ， 可 以 成 为 语言 学 研究 的 新 方向 。 


1 ”自然 语言 中 的 卜 义 现象 


自然 语言 中 的 歧义 是 指 一 个 句子 在 表层 形式 相同 时 ， 有 两 种 或 者 两 种 以 上 不 同 的 理解 方式 。 朱 德 巾 先 
生 认 为 ,“ 一 种 语言 语法 系统 里 的 错综复杂 和 精细 微妙 之 处 往往 在 . 歧义 现象 中 得 到 反映 ”[7]。 歧 义 类 型 包 
括 词汇 歧义 ， 如 “苹果 ”可 以 代表 水 果 ， 也 可 以 代表 苹果 公司 ; 结构 歧义 ， 如 “ 咬 死 了 猎人 的 狗 ” 可 以 理 
解 为 “猎人 的 狗 被 咬 死 了 ”， 或 者 “ 狗 咬 死 了 猎人 ” 语 境 歧 义 ， 如 “他 走 了 一 个 小 时 ” 可 以 理解 为 “他 离 
开 一 个 小 时 ”或 者 “他 走 了 一 段 需要 耗 时 一 个 小 时 的 路 ” 不 同类 型 的 玉 义 现象 可 以 用 不 同 的 语言 学 理论 
进行 分 析 。 如 图 1 所 示 ， 我 们 采用 成 分 句法 分 析 ， 对 “Ishot an elephant in my pajamas.” 进 行 分 析 。 对 于 介 
词 短 语 “ 在 睡衣 里 (in my pajamas)”, 可 以 通过 修饰 句子 不 同 的 成 分 ， 分别 表达 “我 1)” 在 睡衣 里 ， 还 是 
“大 象 (anelephant)” 在 睡衣 里 。 虽 然 表层 形式 相同 ， 但 不 同 的 理解 方式 可 以 非常 直观 地 用 不 同 的 成 分 句 
法 树 分 别 进行 表达 。 


H 


| shot an elephant in my pajamas . 


I shot an elephant in my pajamas . I shot an elephant in my pajamas . 
s 
S ee 
LO NP VP 
NP VP | SS 
| a | v NP 
I vP PP | aT 
SS ee n awe shot Det N PP 
V NP P NP | | ye ee 
| PON | 本 an elephant P NP 
shot Det N in Det N | 
in Det N 
an elephant my pajamas | | 


my pajamas 


1 利用 成 分 句法 树 分 析 自 然 语言 中 的 歧义 现象 


在 日 常 沟通 中 ， 引 入 上 下 文 是 消除 歧义 的 重要 方法 。 对 于 “I shot an elephant in my pajamas.”, 在 不 同 
的 上 下 文中 可 以 有 不 同 的 理解 方式 : 


I shot an elephant in my pajamas. As I stumbled out of bed, still drowsy, I couldn't believe what I was seeing. 
(我 在 睡衣 里 打 死 了 一 头 大 象 。 当 我 跌跌撞撞 地 从 床上 下 来 时 , DAE SAKE, 不 敢 相信 看 到 的 一 切 。) 
I shot an elephant in my pajamas. How he got in my pajamas I'll never know. 


(我 打 死 了 一 头 在 我 睡衣 里 的 大 象 。 我 永远 不 会 知道 他 是 怎么 穿 上 我 的 睡衣 的 。) 


一 般 来 讲 ,“ 我 穿着 睡衣 打 死 大 象 ” 似 乎 更 符合 常理 。 然而,， 上 面 两 句 话 中 的 第 一 句 其 实 是 由 GPT4 E 
成 的 ， 第 二 句 话 则 来 自 格 劳 乔 ，。 马 克 斯 《Groucho Marx) 的 经 典 台词 。 可 见 ， 歧 义 不 仅 仅 只 会 带 来 沟通 障 
碍 或 者 增加 沟通 成 本 ， 也 可 以 成 为 一 种 修辞 手段 ， 带 来 意 想不到 的 戏剧 效果 《如 图 2 所 示 )。 
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“One morning I shot an elephant in my pajamas. 


How he got in 
my pajamas, 
I don't know." 


Groucho Marx 


2 ”歧义 带 来 的 戏剧 效果 


2 ”大 语言 模型 对 歧义 的 感知 


大 语言 模型 在 多 种 任务 上 展现 出 了 强大 的 能 力 ， 可 以 以 零 样本 或 者 少 样本 的 方式 完成 实体 识别 、 情 感 
分 析 、 文 本 分 类 、 机 器 翻译 等 常见 的 自然 语言 处 理 任 务 。 在 大 语言 模型 的 训练 过 程 中 ， 我 们 并 没有 显 式 地 


引入 语言 学 理论 ， 而 是 基于 海量 数据 ， 利 用 自 监督 任务 进行 大 语言 模型 训练 。 通 过 指令 微调 和 强化 学 习 将 
模型 输出 与 人 类 仿 好 对 齐 ， 进 一 步 提 升 大 语言 模型 基于 自然 语言 的 交互 能 力 [8]。 这 里 ,我 们 首先 探究 大 语 


言 模型 能 否 感 知 到 自然 语言 中 的 歧义 现象 ， 并 基于 语言 学 理论 进行 有 效 分 析 。 


我 们 分 别 采用 GPT4、 百 川 2 和 ChatGLM3， 三 个 具有 代表 性 的 大 语言 模型 进行 相关 实验 。GPT4 是 最 
领先 的 商业 大 模型 之 一 ， 可 以 通过 API 进行 调用 ， 但 无 法 获取 模型 内 部 结构 与 中 间 状 态 。GPT4 的 参数 规 
模 并 未 公布 ， 预 计 远 大 于 GPT3 的 1750 亿 参 数 。 百 川 2 和 ChatGLM3 是 领先 的 开源 大 模型 ， 我 们 可 以 方 
便 地 获取 模型 内 部 结构 与 中 间 状 态 。 这 里 我 们 采用 Baichuan2-Chat-13B 和 ChatGLM3-6B-32K 模型 ， 参 数 


量 分 别 为 130 亿 和 60 亿 。 


首先 ， 我 们 不 在 提示 词 中 进行 其 他 引导 ， 只 让 GPT4、 百 川 2 和 ChatGLM3 解释 一 下 上 文中 的 例子 : 
“I shot an elephant in my pajams.”。 结果 如 图 2 所 示 。GPT4 首先 说 明 这 是 一 个 有 歧义 的 句子 ， 并 且 准 确 给 
出 了 两 种 不 同 的 解释 ， 同 时 进一步 说 明 上 下 文 会 影响 句子 的 意思 。 百 川 2 只 是 给 出 了 这 人 句 话 最 符合 常理 的 
一 种 解释 ， 并 未 提 及 句子 有 上 攻 义 。 而 且 百 川 2 出 现 了 “幻觉 (hallucination)” 问 题 ， 将 句子 解释 为 谜语 或 
脑 经 急 转 弯 答案 ， 与 事实 不 符 。ChatGLM3 的 回复 比较 简洁 ， 仅 给 出 了 最 符合 常理 的 解释 。 显 然 ， 如 果 不 


进行 额外 的 提示 和 引导 ， 百 川 2 和 ChatGLM3 难以 感知 和 分 析 句 子 中 的 歧义 现象 。 


GPT4 的 结果 : 


+? GPT-4 


请 解释 一 下 这 句 话 的 意思 : “| shot an elephant in my pajamas.” 


这 人 句 话 "| shot an elephant in my pajamas." 在 英语 中 是 一 个 经 常 被 引用 的 句子 ， 因 为 它 有 歧 


义 。 句 子 的 直接 翻译 是 :“ 我 穿着 睡衣 射 杀 了 一 头 大 象 。” 
但 这 句 话 的 歧义 在 于 ， 我 们 并 不 清楚 是 “我 "穿着 睡衣 还 是 “大 象 " 穿 着 睡衣 。 


1. 可 能 的 解释 是 ， 说 话 的 人 穿着 睡衣 射击 了 大 象 。 
2. 另 一 个 解释 是 ， 大 象 穿着 那个 人 的 睡衣 ， 并 被 那个 人 射击 了 。 


这 个 句子 经 常 被 用 来 展示 英语 语法 的 复杂 性 和 有 趣 之 处 ， 以 及 如 何 语 境 和 修饰 词 的 位 置 可 以 


影响 句子 的 意思 。 


1 图 片 来 源 : https://www.facebook.com/ChessForumNYC 


百川 2 的 结果 : 


旦 ”请 解释 一 下 这 句 话 的 意思 :"l shot an elephant in my pajamas." 


矶 ”这 句 话 的 字面 意思 是 :“ 我 在 睡衣 里 射 杀 了 一 头 大 象 。” 然而， 这 个 表达 实际 上 是 一 个 著名 的 
英语 谜语 或 脑筋 急 转 弯 的 答案 。 这 个 谜语 是 :“ 我 穿着 睡衣 射 杀 了 一 头 大 象 一 一 我 该 怎么 
办 ?“ 正 确 的 答案 是 :“ 穿 上 衣服 。 ”所 以 ， 这 句 话 实际 上 是 在 开玩笑 。 


ChatGLM3 的 结果 : 


请 解释 一 下 这 句 话 是 什么 意思 : “| shot an elephant in my pajamas.” 


‘=, 这 句 话 的 意思 是 :“ 我 在 睡衣 (pajamas) 的 时 候 射 杀 了 一 头 大 象 。 ”这 里 的 “pajamas" 是 指 睡衣 ， 
而 “shot” 则 表示 射击 。 所 以 这 句 话 的 意思 是 在 睡衣 的 帮助 下 ， 成 功 地 射击 了 一 头 大 象 。 


我 们 进一步 探究 ， 如 果 在 提示 词 中 对 大 模型 加 以 引导 ， 开 源 模 型 能 否 正确 分 析 例 句 中 的 歧义 现象 。 扣 
果 如 图 4 所 示 。 首 先 ， 我 们 明确 提示 模型 从 歧义 的 角度 分 析 。 此 时 ， 百 川 2 认为 这 人 句 话 确实 有 歧义 ， 但 


对 不 同 理解 的 解释 
明确 引导 模型 从 
并 给 出 了 两 种 可 能 


3 ”大 语言 模型 对 有 歧义 句子 的 解释 


fia as 


Dy Kei BR AURA aT GAAS IE i FELT , FTE POA a, 
在 睡衣 中 ”的 角度 去 思考 问题 。 我 们 看 到 , 这 时 百川 2 可 以 正确 分 析 造 成 歧义 的 原因 ， 


的 解释 。 同 时 ， 模 型 说 明 “ 大 象 在 我 睡衣 里 ”这 种 情况 不 太 符 合 正常 逻辑 。 相 比 百 川 2， 


ChatGLM3 的 尺寸 更 小 ,对 歧义 的 分 析 能 力也 更 弱 。 我 们 可 以 看 到 ， 即 便 在 给 出 明确 的 提示 时 ，ChatGLM3 
仍然 无 法 正确 给 出 分 析 结 果 。 由 于 ChatGLM3 完全 无 法 感知 和 分 析 例 句 中 的 歧义 ,我们 在 后 续 实验 和 分 析 
中 不 再 包括 ChatGLM3 的 结果 。 


百川 2 的 结果 


a 


这 句 话 有 没有 层 义 呢 ? 


这 句 话 确实 有 一 定 的 层 义 性 。 从 字面 上 看 ， 它 描述 了 一 个 人 穿着 睡衣 射 杀 一 头 大 象 的 场景 。 
然而 ， 如 果 从 夸张 的 角度 理解 ， 它 可 以 表示 某 人 做 了 一 些 大 胆 或 出 人 意料 的 事情 。 因 此 ， 这 
句 话 的 含义 取决 于 语 境 和 听众 的 理解 。 


这 句 话 有 没有 歧义 呢 ? 提示 : 请 从 "我 "在 “睡衣 ”中 ， 还 是 “大 象 ”在 “睡衣 ”中 进行 分 析 


这 人 句 话 的 歧义 主要 来 自 于 “in my pajamas” 这 部 分 。 从 语法 上 看 , “in my pajamas” 是 修饰 “shot 
anelephant” 的 ， 所 以 这 里 的 “我 "是 在 穿 睡衣 的 状态 下 射 杀 了 大 象 。 但 是 ， 如 果 从 夸张 的 角度 
理解 ， 那 么 “in my pajamas” 也 可 以 理解 为 修饰 “elephant”" 的 ， 意 思 是 “在 我 的 睡衣 里 的 大 象 ”, 
这 显然 是 不 合 逻 辑 的 。 所 以 ， 这 人 句 话 的 歧义 在 于 “我 "和 “大 象 "的 关系 上 。 


ChatGLM3 的 结果 : 


这 句 话 确实 存在 层 义 。 根 据 上 下 文 和 语 境 ， 可 以 有 不 同 的 解释 : 


1， 一 个 人 穿着 睡衣 (pajamas) 在 床上 ， 用 枪 射击 了 一 头 大 象 。 
2， 一 个 人 穿着 睡衣 (pajamas) 在 床上 ， 用 枪 射击 了 自己 的 大 象 。 


因此 ， 在 理解 这 句 话 时 ， 需 要 结合 具体 的 语 境 和 背景 信息 。 


这 句 话 有 没有 歧义 呢 ? 提示 : 请 从 ' 我 "在 "睡衣 "中 ， 还 是 “大 象 "在 "睡衣 "中 进行 分 析 


抱歉 刚刚 的 回答 没有 解释 清楚 。 这 句 话 的 歧义 主要 在 于 “大 象 " 和 "睡衣 ”的 位 置 关 系 。 


1 如果 “大 象 ”在 “睡衣 ”中 ， 那 么 这 句 话 的 意思 是 :“ 我 在 睡衣 (pajamas) 里 面 的 时 候 ， 用 枪 射 


击 了 一 头 大 象 。” 这 种 解释 可 能 发 生 在 一 个 人 穿着 睡衣 ， 然 后 把 大 象 藏 在 睡衣 里 ， 最 后 用 枪 
射击 它 。 


2. 如果 “睡衣 ”在 “大 象 ”中 ， 那 么 这 句 话 的 意思 是 :“ 我 在 睡衣 (pajamas) 里 面 的 时 候 ， 用 枪 射 


击 了 自己 的 大 象 。” 这 种 解释 可 能 发 生 在 一 个 人 穿着 睡衣 ,然后 用 枪 射击 了 自己 藏 在 大 象 里 
的 另 一 头 大 象 。 


所 以 ， 这 句 话 的 确 存 在 层 义 ， 需 要 根据 具体 的 语 境 和 背景 信息 来 理解 。 


4 ”通过 加 入 更 多 提示 信息 来 提升 大 语言 模型 的 分 析 能 


接 下 来 ， 我 们 测试 GPT4 与 百川 2 利用 语言 学 方法 分 析 歧 义 句子 的 能 力 。 如 图 5 所 示 ，GPT4 给 出 了 


例句 在 两 种 不 同 理解 下 的 成 分 句法 树 。 对 照 图 1， 给 出 的 句法 树 的 总 体 结构 完整 旦 基本 准确 。 对 于 表层 形 


式 相同 但 有 歧义 的 句子 ， 基 于 


有 监督 学 习 的 传统 句法 分 析 模 型 很 难 根据 不 同 的 理解 给 出 不 同 的 分 析 结 果 。 


GPT4 则 可 以 将 卜 义 感知 与 句法 分 析 方 法 较 好 融合 起 来 。 相 比 之 下 ， 百 川 2 对 句子 进行 成 分 语法 分 析 的 能 


JIRI C 


图 6)。 虽 然 百 川 2 给 出 了 部 分 正确 地 分 析 结 果 ， 对 于 两 种 不 同 的 理解 ， 却 给 出 了 相同 的 句法 树 ， 


并 没有 将 歧义 分 析 与 成 分 句法 分 析 对 应 和 融合 起 来 。 


句法 分 析 树 描述 了 句子 结构 和 组 件 之 间 的 关系 。 对 于 句子 “| shot an elephant in my 
pajamas”， 以 下 是 两 种 不 同 解释 的 句法 分 析 树 S 
FAN 
NP VP 
f. ON 
Iv NP 
THES 


当 " 我 "穿着 睡衣 射 杀 大 象 时 : 


te 


elephant my pajamas 


在 这 种 解释 中 ， 介 词 短 语 (PP) "in my pajamas" 是 动词 短语 (VP) 的 修饰 语 ， 表 明 动 作 是 在 什 
么 情境 下 发 生 的 。 


当 大 象 穿着 “我 "的 睡衣 时 


shot NP PP 
A 
elephant in NP 


象 穿着 什么 。 


更 多 的 语法 细节 和 关系 


5 GPT4 返回 歧义 句子 在 不 同 理解 下 对 应 的 成 分 句法 树 


六 ”这 两 种 解释 的 树 形 结构 如 下 : 
晤 ”请 定 一 句 话 : "1shot an elephant in my pajamas." 这 句 话 有 歧义 ， 取 决 于 "我 "在 “睡衣 "中 ， 
还 是 “大 象 "在 “睡衣 中 "， 可 以 有 不 同 的 理解 。 请 给 出 不 同 理解 的 成 分 句法 树 。 


1. "I" {£ "pajamas" 中 : 


(root © 
(np (prp i)) 
æ ; > 3 (VP (vbd shot) 
© 1. "I" "pajamas" 中 :我 穿着 睡衣 射 杀 了 一 头 大 象 。 Components: (S (NP (PRP I)) (VP (VP er ON ce a 
(VBD shot) (NP (DT an) (NN elephant)) (PP (IN in) (NP (NNS pajamas))))) (pp (in np (nns pajamas) )))) 
2. "elephant" 在 "pajamas" 中 :我 射 杀 了 一 头 穿著 睡衣 的 大 象 。 Components: (S (NP (PRP 中 2. "elephant" E "pajamas" h: 
(VP (VP (VBD shot) (NP (DT an) (NN elephant)) (PP (IN in) (NP (NNS pajamas))))) 
(root 
(np (prp i)) 
(VP (vbd shot) 
À ”请 用 树 的 形式 展示 (np (dt an) (nn elephant)) 
上 R 


(pp (in np (nns pajamas))))) 


6 百川 2 返回 歧义 句子 在 不 同 理解 下 对 应 的 成 分 句法 树 


除 此 之 外 ， 我 们 测试 大 语言 模型 能 否 和 人 类 一 样 ， 在 不 同 的 语 境 中 ， 对 包含 歧义 地 句子 进行 消 靶 ， 并 
给 出 正确 的 解释 。 如 图 7 所 示 ，GPT4 给 出 了 详尽 解释 ， 并 指出 给 定 的 例句 有 歧义 。 依 据 不 同 地 上 下 文 语 
境 ， 对 句子 的 理解 非常 准确 。 然 而 ， 百 川 2 却 无 法 根据 上 下 文 进行 正确 分 析 。 在 没有 进行 额外 提示 的 前 提 
下 ， 百 川 2 并 未 感知 到 给 定 的 句子 有 上 攻 义 ， 这 与 上 文 的 测试 结果 一 致 〈 图 3 和 图 4)。 在 不 同 的 上 下 文中 ， 
百川 2 都 给 出 了 最 符合 常理 的 一 种 解释 ， 但 在 “I shot an elephant in my pajamas. How he got in my pajamas 
I'll never know.” 中 ， 这 种 解释 显然 并 不 合理 。 


在 “| shot an elephant in my pajamas. As | stumbled out of bed, still drowsy, | couldn't believe 
what | was seeing.” }, “I shot an elephant in my pajamas” 应 该 怎么 理解 ? 


在 "| shot an elephant in my pajamas. How it got into my pajamas, I'll never know.” 中 ，"| shot 
an elephant in my pajamas:" 应 该 怎么 理解 ? 


这 句 话 “| shot an elephant in my pajamas 是 一 个 经 典 的 语言 学 例子 ， 用 来 展示 句子 的 歧义 这 句 话 是 一 个 经 典 的 笑话 ， 起 源 于 Groucho Marx。 在 这 里 ，"| shot an elephantin my 
性 。 句 子 本 身 可 以 有 两 种 不 同 的 解读 : pajamas" 这 句 话 被 故意 构造 成 歧义 。 


1. 我 穿着 睡衣 射击 了 一 头 大 象 。( 即 是 说 ， 当 我 射击 大 象 时 ， 我 穿着 睡衣 。) 和 之 前 的 解释 一 样 ，"| shot an elephant in my pajamas.” 可 以 有 两 种 解释 : 
2. 我 射击 了 一 头 穿着 睡衣 的 大 象 。 ( 即 是 说 ， 这 头 大 象 穿着 睡衣 。) 
1. 我 穿着 睡衣 射击 了 一 头 大 象 。 


在 大 多 数 情境 下 ， 第 一 种 解释 更 为 合理 ， 因 为 大 象 通常 不 会 穿 睡衣 。 但 这 句 话 的 结构 使 得 两 2. 我 射击 了 一 头 穿着 睡衣 的 大 象 。 
种 解释 在 语法 上 都 是 可 能 的 。 

但 是 ， 随 后 的 句子 “How it got into my pajamas, I'll never know.” 明确 了 这 个 笑话 的 意图 ， 它 是 
当 这 句 话 与 下 文 的 “As1stumbled out of bed, still drowsy, | couldn't believe what | was 在 玩弄 这 种 歧义 。 这 句 话 暗示 了 第 二 种 解释 ， 即 大 象 是 如 何 进入 他 的 睡衣 的 ( 即 ， 大 象 穿 了 
seeing." 结 合 时 ， 更 容易 倾向 于 第 一 种 解释 ， 因 为 提 到 了 “从 床上 摇 摇 晃 网 地 息 起 来 ， 仍 然 错 说 话 者 的 睡衣 ) ， 这 是 一 个 荒 廖 的 概念 ， 从 而 制造 了 幽默 效果 。 所 以 在 这 种 情境 下 ，“1 shot 
错 沉 沉 "， 这 暗示 说 话 者 可 能 刚刚 醒 来 ， 所 以 他 穿 的 是 睡衣 。 an elephant in my pajamas" 应 该 被 理解 为 我 射击 了 一 头 穿着 我 的 睡衣 的 大 象 ”。 


图 7 GPT4 依据 上 下 文中 分 析 句 子 歧义 


高 ”在 "|shotan elephant in my pajamas. As | stumbled out of bed, still drowsy, | couldn't believe 
what | was seeing", "I shot an elephant in my pajamas." 应 该 怎么 理解 ? 


S ”这 句 话 的 意思 是 :“ 我 在 睡衣 里 射 杀 了 一 头 大 象 。” 


这 个 句子 是 一 个 幽默 的 、 夸 张 的 表达 ， 用 来 强调 说 话 者 当时 非常 惊讶 或 者 难以 置信 。 在 这 
里 ， 说 话 者 在 睡衣 里 射 杀 大 象 是 一 个 非常 夸张 和 不 现实 的 行为 ， 所 以 用 来 表达 他 的 惊讶 和 难 
以 置信 。 


& 在 "Ishotanelephantin my pajamas. How he got in my pajamas I'll never know. "中 , "| shot 
an elephant in my pajamas." 应 该 怎么 理解 ? 


a ”这 是 一 个 幽默 的 谜语 。 这 句 话 的 意思 是 :“ 我 在 睡衣 里 射 杀 了 一 头 大 象 。 我 不 知道 它 怎么 会 
到 我 的 睡衣 里 来 。 "这 里 的 "shot an elephant in my pajamas" 是 一 种 夸张 的 说 法 ， 实 际 上 不 可 
能 在 睡衣 里 射 杀 一 头 大 象 。 这 种 表达 方式 是 为 了 制造 幽默 效果 。 


8 百川 2 依据 上 下 文中 分 析 旬 子 歧义 


综 上 所 述 ，GPT4 和 百川 2 对 于 以 歧义 为 代表 的 复杂 语言 现象 都 有 一 定 的 感知 和 分 析 能 力 。 但 作为 参 
数量 更 大 、 通 用 能 力 更 强 的 商用 模型 ，GPT4 的 分 析 能 力 明 显 强 于 规模 较 小 、 能 力 较 弱 的 开源 模型 。GPT4 
更 像 是 一 个 训练 有 素 的 语言 学 家 ， 可 以 敏锐 感知 复杂 和 细微 的 语言 学 现象 ， 并 通过 专业 的 语言 学 方法 进行 

6 


分 析 。 相 比 之 下 ， 百 川 2 模型 更 像 是 一 个 普通 人 ， 对 此 义 的 感知 和 分 析 能 力 较 弱 。 在 不 进行 明确 提示 的 时 
候 ， 甚 至 无 法 感知 和 分 析 例句 中 的 歧义 。ChatGLM3 则 没有 表现 出 任何 感知 和 分 析 歧 义 的 能 力 。 


3 ”自然 语言 歧义 与 大 语言 模型 内 部 神经 元 活动 

有 别 于 传统 的 语言 学 研究 ， 神 经 语言 学 通过 融合 神经 科学 、 语 言 学 、 认 知 科 学 、 神 经 生物 学 等 多 个 学 
科 ， 来 研究 人 类 大 脑 对 于 自然 语言 的 理解 和 处 理 过 程 。 通 过 对 齐 大 脑 活 动 与 语言 学 理论 ， 借 由 脑 成 像 、 电 
生理 和 计算 机 建 模 ， 来 评估 语言 学 和 心理 语言 学 理论 [9]。 神 经 语言 学 对 于 失语 症 ， 语 言 障碍 和 脑 损伤 等 
究 有 重要 意义 。 然 而 ， 在 实际 研究 过 程 中 ， 神 经 语言 学 往往 需要 使 用 仪器 大 量 采集 人 类 脑 部 信号 〈 图 9) 
[10]， 较 高 的 采集 成 本 给 相关 研究 带 来 了 巨大 障碍 。 


Via higher-order frontal networks 


Ventral stream 
—_—_—_————"» 


图 9 神经 语言 学 研究 过 程 示例 (Hickok, Poeppel, 2007, p. 395) 


我 们 从 上 文 的 实验 和 分 析 结 果 得 知 ， 大 语言 模型 有 很 强 的 自然 语言 理解 与 感知 能 力 。 与 采集 人 类 脑 前 
言 号 不 同 ， 对 于 开源 大 语言 模型 ， 我 们 可 以 很 方便 地 获取 他 们 在 处 理 不 同文 本 时 的 内 部 神经 元 活动 。Zou 
等 人 [11] 的 研究 发 现 ， 当 大 语言 模型 分 别 在 生成 真实 内 容 和 虚假 内 容 时 ， 其 内 部 的 神经 元 特征 有 明显 的 不 
同 ( 如 图 10 所 示 )。 我 们 可 以 采用 与 神经 语言 学 相似 的 研究 方法 ， 将 大 语言 模型 内 部 特征 与 语言 学 理论 对 
齐 ， 对 语言 本 身 进行 更 深入 地 研究 。 


Representation Engineering (RepE) LAT Scans for Honesty 
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10 大 语言 模型 生成 内 容 的 真实 性 与 神经 元 活动 [11] 
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11 例句 对 应 的 百川 2 模型 内 部 神经 元 特征 分 层 展示 


与 上 文 一 致 ， 我 们 采用 百川 2 模型 ， 以 “Ishot an elephant in my pajamas.” 作 为 例句 进行 分 析 。 百 川 2 
13B 模型 由 40 层 基于 自 注 意 力 机 制 的 Transformer[12] 编 码 块 堆 有 而 成 。 对 于 给 定 的 句子 S$， 首先 通过 分 词 
at (Tokenizer) 将 S 切 分 成 N 个 词 〈Token)。 对 于 每 个 词 ， 我 们 取 模 型 每 一 层 的 输出 〈5120 维 的 向 量 ) 作 
为 特征 。 基 于 百川 2 的 分 词 器 ， 给 定 例句 的 分 词 结果 如 下 : 


['I', '__shot', '__an', '—elephant', '_in', 


—my', '_p', 'aj', ‘amas’, '."] 

除了 “pajamas” 被 一 分 为 三 ， 其 余 英 文 单 词 和 标点 都 被 切 分 成 了 单独 的 词 ， 总 计 10 个 。 通 过 获取 百 
川 2 模型 每 一 层 的 输出 ， 得 到 的 特征 张 量 (Tensor) 形状 为 [40, 10, 5120]。 我 们 拟 采 用 热力 图 的 形式 进行 展 
示 。 由 于 原本 特征 张 量 尺寸 较 大 且 维度 较 高 ， 为 了 方便 展示 ， 我 们 首先 对 最 后 一 维 的 特征 以 800 的 倍数 进 
行 采样 ， 并 将 原本 的 特征 张 量 转化 成 一 个 二 维和 矩阵 ， 同 时 分 隔 每 一 个 词 对 应 的 表示 。 最 终结 果 如 图 11 所 
示 。 如 果 用 对 应 数值 的 绝对 值 来 表示 特征 信号 的 强度 ， 从 第 1 层 到 第 40 层 ， 特 征 信 号 总 体 上 随 着 模型 编 
码 层 数 的 又 加 越 来 越 强 。 我 们 对 每 一 个 词 对 应 的 特征 信号 的 绝对 值 进行 分 层 求 和 ， 进 一 步 探究 模型 不 同 层 
的 语义 编码 情况 。 结 果 如 图 12 所 示 。 在 1 至 10 层 ， 不 同 的 词 对 应 的 特征 信号 强度 相对 比较 均衡 。 随 着 层 
数 二 加 ， 在 10-20 层 ， 不 同 的 词 对 应 的 信号 强度 已 经 开始 出 现 差异 。 到 最 后 20 层 , “in” 和 人 句号 “.” 周 围 
的 信号 特征 明显 强 于 其 他 词 ， 表 明 模 型 已 经 关注 到 了 句子 中 的 关键 信息 和 整体 语义 。 
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12 ”例句 中 不 同 的 词 对 应 的 模型 内 部 特征 绝对 值 的 分 层 累加 
8 


在 此 基础 


th 之 上 ， 我 们 给 例句 引入 上 下 文 ， 并 i 


文中 对 其 进行 


编码 时 ， 模 型 内 部 的 神经 元 活动 是 否 


FE 


上 下 


步 探究 对 于 有 上 牙 义 的 句子 ， 大 语言 模型 在 不 同 的 


#3 有 明显 不 同 。 我 们 沿用 上 文中 的 两 个 例子 : 


上 下 文 A: I shot an elephant in my pajamas. As I stumbled out of bed, still drowsy, I couldn't believe what I 


was seeing. 


上 下 文 B: I shot an elephant in my pajamas. How he got in my pajamas I'll never know. 


类 似 地 ， 


上 下 文中 对 应 的 特 
应 的 模型 内 部 特征 
致 。 我 们 把 例句 在 无 上 下 文 、 上 下 文 A 和 B 中 的 模型 内 部 特征 表示 分 别 记 为 Ru、 
Ra 和 Rs， 与 Ro 的 欧 
更 接近 它 在 无 上 下 文 时 的 表示 。 


识 。 


EE E 
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| shot _an _elephant =n 


我 们 采用 百 
征 表示 如 
差别 非常 小 ， 


1.328 和 1.453. 


式 距 离 分 别 为 


FI 
OH 


事实 上 ， 上 下 文 A 中 对 于 句子 的 理解 ， 即 “我 穿着 睡 


川 2 模型 分 别 对 他 们 进行 编码 和 展示 。“I shot an elephant in my pajamas.” 在 两 种 
图 13 所 示 。 总 体 来 看 ， 对 照 图 11， 例 句 在 无 上 下 文 和 在 不 同 的 上 下 文中 ， 对 
表明 百川 2 模型 对 于 攻 义 的 感知 能 力 较 弱 ， 这 与 本 文 第 2 节 的 实验 结 


R4 和 Rp， 以 Ro 为 参照 ， 
但 依然 说 明 在 上 下 文 A 中 ， 例 名 的 表示 
衣 ”， 确 实 更 符合 常 


有 & 然 差别 较 小 ， 
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13 ”例句 在 不 同上 下 文中 对 应 的 百川 2 人 上 下 两 个 子 图 分 别 对 应 上 下 文 AB 


为 了 深入 探究 给 定 例句 在 两 种 上 下 文中 的 细 


微 差 别 ,我们 用 Ro 对 Ra 和 Rs 进行 


过 滤 。 对 于 Ra 和 Rsp， 我 们 


9 


分 别 减 去 Ro， 并 适当 调整 热力 图 的 刻度 。 结 果 如 


图 14 所 示 。 
特征 表示 还 是 有 较为 明显 的 区 别 。 特 别 是 在 30 AE, PA 
理解 起 关键 作用 的 词 , 其 对 应 的 表示 与 无 上 下 文 时 


经 过 过 滤 后 ， 例 句 在 两 种 不 同 的 上 下 文中 的 
“in”“elephant”“pajamas” 等 几 个 对 句子 
有 明显 区 别 , 在 不 同 的 上 下 文中 也 有 明显 差异 ,而 “shot” 


” e 
` 


e 3 A A y ya px up ` 14r 
和 “an” 等 与 句子 歧义 无 关 的 词 ， 对 应 的 特征 表示 之 间 的 差异 较 小 。 
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14 ”利用 例句 在 无 上 下 文中 的 表示 对 不 同上 下 文中 的 表示 进行 归 一 化 ， 上 下 两 个 子 图 分 别 对 应 R4 一 Ro 和 Rp 一 Ro 


总 体 来 看 ， 自 然 语言 中 句子 的 政 义 现象 可 以 通过 大 语言 模型 内 部 的 神经 元 信号 展现 出 来 。 另 一 方面 ， 


大 语言 模型 对 文本 表层 对 应 的 语义 信息 的 感知 能 


， 要 


明显 强 于 对 收 义 等 比较 复杂 的 语言 现象 的 感知 和 分 


析 能 力 。 例 如 ， 如 果 我 们 把 例句 中 的 “shot” 替 换 为 “rode”， 大 语言 模型 的 内 部 活动 会 发 生 明 显 变化 如 
图 15 所 示 )。 两 句 话 对 应 的 特征 表示 之 间 的 欧式 距离 为 250.2， 远 大 于 R4 和 Rs 与 Ro 之 间 的 欧式 距离 。 
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14 ”上 图 为 将 例句 中 的 “shot ”替换 为 “rode” 后 ， 对 应 的 百川 2 模型 内 部 特征 展示 ; 下 图 为 减 去 Ro 之 后 的 结果 
4 总 结 与 展望 
大 语言 模型 的 快速 发 展 为 各 类 复杂 问题 提供 了 新 的 智能 化 解决 方案 , 包括 帮助 人 类 更 好 地 分 析 与 理解 
自然 语言 , 这 给 语言 学 研究 带 来 了 新 的 思路 与 方法 。 本文 以 自然 语言 中 的 卜 义 现象 为 例 , 评估 了 以 GPT4、 


百川 2 与 ChatGLM3 模型 为 代表 的 大 语言 模型 对 于 复杂 语言 现象 的 感知 与 分 析 能 力 。 作 为 目前 最 好 的 通用 


大 语言 模型 之 一 ，GPT4 可 以 运用 语言 学 知识 ， 有 效 融 合 歧义 消解 与 句法 分 析 两 个 传统 的 自然 语言 处 型 
务 ， 准 确 分 析 给 定 例句 中 的 卜 义 现象 。 相 比 之 下 ， 开 源 大 语言 模型 百川 2 对 于 卜 义 的 感知 能 力 较 弱 ， 需 


任 
要 


H 


通过 比较 明确 的 提示 引导 来 实现 准确 分 析 。ChatGLM3 的 尺寸 更 小 ， 其 对 歧义 的 感知 和 分 析 能 力 则 更 弱 。 


另 一 方面 ， 对 于 开源 大 语言 模型 ， 我 们 可 以 方便 地 获取 模型 在 处 到 


文本 时 的 内 部 神经 元 特征 。 参 照 神经 语 


言 学 相关 研究 方法 ， 我 们 探究 大 语言 模型 内 部 活动 与 语言 学 现象 之 间 的 对 应 关系 。 由 于 百川 2 模型 对 于 歧 
义 的 感知 和 分 析 能 力 较 弱 ， 给 定 例句 在 不 同 的 上 下 文中 的 特征 表示 差别 较 小 ， 但 通过 不 同上 下 文中 模型 特 
征 的 对 比 与 过 滤 ， 我 们 依然 可 以 明显 观察 到 卜 义 现象 与 模型 内 部 特征 表示 之 间 的 相关 性 。 

助 大 语言 模型 进行 语言 学 研究 的 可 能 性 。 随 着 大 语言 模型 ， 特 别 是 开 


本 文通 过 相关 实验 初步 验 订 


E 了 借 


源 大 模型 本 身 的 i 
研究 各 类 复杂 的 语言 现象 和 问题 带 来 更 多 的 可 能 性 
语言 模型 内 部 特征 与 语言 


学 理论 的 对 齐 ， 从 


步 ， 其 对 复杂 语言 现象 的 感知 能 力 科 


, 


jE = ay 
Wat 


发 展 ， 同 时 推动 大 模型 相关 技术 的 进步 。 


包括 利用 更 大 的 数据 术 


的 角度 为 大 语言 模型 提供 可 解释 性 ， 促 进 语 


1 分 析 能 力也 会 越 来 越 强 ， 这 也 将 为 我 们 通过 大 模型 


本 ， 通 过 更 深入 地 分 析 实 现 大 
学 理论 的 


` 
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